Mô hình hồi quy là gì? Các công bố khoa học về Mô hình hồi quy

Mô hình hồi quy là một phương pháp trong thống kê và máy học để dự đoán giá trị của một biến phụ thuộc dựa trên nhiều biến độc lập. Mô hình hồi quy giả định một...

Mô hình hồi quy là một phương pháp trong thống kê và máy học để dự đoán giá trị của một biến phụ thuộc dựa trên nhiều biến độc lập. Mô hình hồi quy giả định một mối quan hệ tuyến tính giữa biến phụ thuộc và các biến độc lập và cố gắng tìm ra một hàm số tối ưu để ánh xạ các biến độc lập vào biến phụ thuộc.

Mô hình hồi quy có thể được áp dụng cho các loại dữ liệu liên tục hoặc rời rạc và có thể được sử dụng để dự đoán giá trị trong tương lai hoặc giải thích mối quan hệ giữa các biến. Các phương pháp hồi quy phổ biến bao gồm hồi quy tuyến tính, hồi quy logistic, hồi quy đa thức và hồi quy thần kinh mạng.
Mô hình hồi quy đặt mục tiêu là tìm ra mối quan hệ tuyến tính giữa biến phụ thuộc (y) và các biến độc lập (x₁, x₂, ..., xn). Phương pháp này dựa trên giả định rằng mối quan hệ này có thể được biểu diễn bằng một phương trình tuyến tính của các biến độc lập.

Phương trình hồi quy đơn giản nhất là hồi quy tuyến tính. Dạng chung của phương trình hồi quy tuyến tính là:

y = β₀ + β₁x₁ + β₂x₂ + ... + βₙxn

Trong đó:
- y là biến phụ thuộc cần dự đoán.
- x₁, x₂, ..., xn là các biến độc lập được sử dụng để dự đoán y.
- β₀, β₁, β₂, ..., βₙ là các hệ số hồi quy, thể hiện mức độ ảnh hưởng của từng biến độc lập đến biến phụ thuộc.

Mục tiêu của mô hình hồi quy là tìm ra các hệ số hồi quy (β₀, β₁, β₂, ..., βₙ) sao cho phương trình tối ưu hóa khả năng dự đoán của mô hình. Quá trình này thường được thực hiện bằng cách sử dụng các phương pháp như tối thiểu hóa sai số bình phương nhỏ nhất (Least Squares), lập trình tuyến tính, gradient descent và nhiều phương pháp khác.

Có nhiều biến thể khác nhau của mô hình hồi quy như hồi quy đa thức (khi thêm các biến lên mũ khác nhau), hồi quy logistic (cho biến phụ thuộc có giá trị rời rạc), hồi quy ridge (giảm thiểu overfitting) và hồi quy Lasso (điều chỉnh tỷ lệ ảnh hưởng của các biến độc lập).
Mô hình hồi quy tuyến tính là một phương pháp dự đoán giá trị của biến phụ thuộc dựa trên một hoặc nhiều biến độc lập. Mô hình này dựa trên giả định rằng có một mối quan hệ tuyến tính giữa biến phụ thuộc và các biến độc lập.

Phương trình hồi quy tuyến tính có dạng:

y = β₀ + β₁x₁ + β₂x₂ + ... + βₙxn

Trong đó:
- y là biến phụ thuộc cần được dự đoán.
- x₁, x₂, ..., xn là các biến độc lập.
- β₀, β₁, β₂, ..., βₙ là các hệ số hồi quy, biểu diễn mức độ ảnh hưởng của từng biến độc lập đến biến phụ thuộc.

Mục tiêu của mô hình hồi quy tuyến tính là tìm ra các giá trị của β₀, β₁, β₂, ..., βₙ sao cho mô hình hồi quy có khả năng dự đoán tốt nhất. Để làm được điều đó, ta cần sử dụng các phương pháp ước lượng hệ số, như phương pháp tối thiểu hóa sai số bình phương nhỏ nhất (Least Squares Method), phương pháp các đặc trưng tiêu biểu (Stepwise Feature Selection Method) hoặc các phương pháp tối ưu hóa khác.

Ngoài phương trình hồi quy tuyến tính đơn giản, còn có thể sử dụng các biến độc lập với dạng đa thức, tức là biến được tăng lên mũ. Ví dụ, ta có thể thêm các biến x₁², x₁³, ... vào phương trình để khám phá mối quan hệ phi tuyến. Điều này giúp mô hình hồi quy tuyến tính linh hoạt hơn và có thể xấp xỉ tốt hơn với môi trường dữ liệu thực tế.

Mô hình hồi quy tuyến tính cũng có thể được sử dụng cho dữ liệu không chỉ có biến phụ thuộc liên tục mà còn có biến phụ thuộc rời rạc. Khi biến phụ thuộc là các giá trị rời rạc, ta có thể sử dụng mô hình hồi quy logistic để dự đoán xác suất xảy ra của một sự kiện, với giá trị dự đoán nằm trong khoảng từ 0 đến 1.

Danh sách công bố khoa học về chủ đề "mô hình hồi quy":

Hồi quy trọng số theo địa lý: Một phương pháp khám phá tính không ổn định không gian Dịch bởi AI
Geographical Analysis - Tập 28 Số 4 - Trang 281-298 - 1996

Tính không ổn định không gian là điều kiện mà một mô hình "toàn cầu" đơn giản không thể giải thích các mối quan hệ giữa một số tập hợp biến. Bản chất của mô hình phải thay đổi theo không gian để phản ánh cấu trúc bên trong dữ liệu. Trong bài báo này, một kỹ thuật được phát triển, được gọi là hồi quy trọng số theo địa lý, nhằm cố gắng nắm bắt sự biến đổi này bằng cách điều chỉnh một mô hình hồi quy đa biến cho phép các mối quan hệ khác nhau tồn tại tại các điểm khác nhau trong không gian. Kỹ thuật này được dựa lỏng lẻo trên hồi quy hạt nhân. Phương pháp này được giới thiệu và những vấn đề liên quan như việc lựa chọn hàm trọng số không gian được thảo luận. Sau đó, một loạt các bài kiểm tra thống kê liên quan được xem xét, có thể được miêu tả chung là các bài kiểm tra cho tính không ổn định không gian. Sử dụng các phương pháp Monte Carlo, các kỹ thuật được đề xuất để điều tra giả thuyết không rằng dữ liệu có thể được mô tả bởi một mô hình toàn cầu thay vì một mô hình không ổn định và cũng nhằm kiểm tra xem các hệ số hồi quy cá nhân có ổn định qua không gian địa lý hay không. Các kỹ thuật này được chứng minh trên một tập dữ liệu từ cuộc điều tra dân số Vương quốc Anh năm 1991 liên quan đến tỷ lệ sở hữu xe hơi với tầng lớp xã hội và tỷ lệ thất nghiệp nam giới. Bài báo kết luận bằng cách thảo luận về các cách mà kỹ thuật này có thể được mở rộng.

#tính không ổn định không gian #hồi quy trọng số theo địa lý #mô hình hồi quy đa biến #kiểm tra thống kê
Kiểm Tra Mediation và Suppression Effects của Các Biến Tiềm Ẩn Dịch bởi AI
Organizational Research Methods - Tập 11 Số 2 - Trang 296-325 - 2008

Do tầm quan trọng của các nghiên cứu trung gian, các nhà nghiên cứu đã liên tục tìm kiếm phương pháp thống kê tốt nhất cho hiệu ứng trung gian. Các phương pháp thường được sử dụng bao gồm phân tích tương quan bậc không (zero-order correlation) và tương quan từng phần (partial correlation), các mô hình hồi quy phân cấp (hierarchical regression models), và mô hình phương trình cấu trúc (SEM). Nghiên cứu này mở rộng các công trình của MacKinnon và các đồng nghiệp (MacKinnon, Lockwood, Hoffmann, West, & Sheets, 2002; MacKinnon, Lockwood, & Williams, 2004; MacKinnon, Warsi, & Dwyer, 1995) thông qua việc tiến hành một mô phỏng để kiểm tra sự phân bố của các hiệu ứng trung gian và ức chế (suppression) của các biến tiềm ẩn với SEM, và các đặc tính của khoảng tin cậy phát triển từ tám phương pháp khác nhau. Kết quả cho thấy SEM cung cấp các ước lượng không thiên lệch cho các hiệu ứng trung gian và ức chế, và khoảng tin cậy bootstrap được điều chỉnh thiên vị cho hiệu quả nhất trong việc kiểm tra các hiệu ứng trung gian và ức chế. Các bước để thực hiện các quy trình được khuyến nghị với Amos được trình bày.

#hiệu ứng trung gian #biến tiềm ẩn #mô hình phương trình cấu trúc #khoảng tin cậy bootstrap #phân tích hồi quy
Suy ngẫm lại một số khía cạnh của mô hình phương trình cấu trúc hồi quy bậc thấp Dịch bởi AI
European Journal of Marketing - Tập 53 Số 4 - Trang 566-584 - 2019
Mục đích

Mô hình phương trình cấu trúc hồi quy bậc thấp (PLS-SEM) là một kỹ thuật thống kê quan trọng trong bộ công cụ các phương pháp mà các nhà nghiên cứu trong lĩnh vực tiếp thị và các khoa học xã hội khác thường xuyên sử dụng trong các phân tích thực nghiệm của họ. Mục đích của bài báo này là làm rõ một số hiểu lầm đã xuất hiện do các "hướng dẫn mới" được đề xuất cho PLS-SEM. Tác giả thảo luận về nhiều khía cạnh liên quan đến các cuộc tranh luận hiện tại về việc khi nào hoặc không nên sử dụng PLS-SEM, và nên áp dụng những chỉ số đánh giá mô hình nào. Ngoài ra, bài báo này tóm tắt một số mở rộng phương pháp quan trọng mà các nhà nghiên cứu PLS-SEM có thể sử dụng để cải thiện chất lượng của các phân tích, kết quả và phát hiện của họ.

Thiết kế/phương pháp/tiếp cận

Bài báo kết hợp tài liệu từ nhiều lĩnh vực khác nhau, bao gồm tiếp thị, quản lý chiến lược, hệ thống thông tin, kế toán và thống kê, để trình bày một cái nhìn tổng quan hiện đại về PLS-SEM. Dựa trên những phát hiện này, bài báo cung cấp một định hướng về cách xem xét và áp dụng những phát triển mới nhất này khi thực hiện hoặc đánh giá nghiên cứu dựa trên PLS-SEM.

Kết quả

Bài báo này cung cấp hướng dẫn về các tình huống thuận lợi cho việc sử dụng PLS-SEM và thảo luận về sự cần thiết phải xem xét một số chỉ số đánh giá mô hình nhất định. Nó cũng tóm tắt cách xử lý tính nội sinh trong PLS-SEM, và bình luận một cách phê phán về đề xuất gần đây nhằm điều chỉnh các ước tính PLS-SEM để mô phỏng các mô hình yếu tố chung mà là nền tảng của SEM dựa trên hiệp phương sai. Cuối cùng, bài báo này phản đối việc coi các khái niệm và thực hành phổ biến của PLS-SEM là "lỗi thời" mà không cung cấp các lựa chọn và giải pháp có cơ sở vững chắc.

#PLS-SEM #mô hình phương trình cấu trúc #nghiên cứu thực nghiệm #phân tích dữ liệu #khái niệm khung phương pháp
Tính chất của các bài kiểm tra phụ thuộc không gian trong mô hình hồi quy tuyến tính Dịch bởi AI
Geographical Analysis - Tập 23 Số 2 - Trang 112-131 - 1991

Dựa trên một số lượng lớn các thí nghiệm mô phỏng Monte Carlo trên một mạng lưới đều đặn, chúng tôi so sánh các tính chất của kiểm tra Moran's I và kiểm tra nhân tử Lagrange đối với phụ thuộc không gian, tức là đối với cả tự tương quan lỗi không gian và biến phụ thuộc được suy rộng không gian. Chúng tôi xem xét cả độ chệch và sức mạnh của các bài kiểm tra cho sáu cỡ mẫu, từ hai mươi lăm đến 225 quan sát, cho các cấu trúc khác nhau của ma trận trọng số không gian, cho nhiều phân bố lỗi bên dưới, cho các ma trận trọng số được chỉ định sai, và cho tình huống khi có hiệu ứng ranh giới. Kết quả cung cấp chỉ số về các cỡ mẫu mà các tính chất tiệm cận của các bài kiểm tra có thể được xem là có hiệu lực. Chúng cũng minh họa sức mạnh của các bài kiểm tra nhân tử Lagrange để phân biệt giữa phụ thuộc không gian thực chất (trễ không gian) và phụ thuộc không gian như một phiền nhiễu (tự tương quan lỗi).

#Moran's I #nhân tử Lagrange #phụ thuộc không gian #tự tương quan lỗi #trễ không gian #ma trận trọng số không gian #mô phỏng Monte Carlo #mô hình hồi quy tuyến tính #hiệu ứng ranh giới
Thái độ So Với Thói Quen Chung: Các Yếu Tố Quyết Định Lựa Chọn Phương Thức Di Chuyển1 Dịch bởi AI
Journal of Applied Social Psychology - Tập 24 Số 4 - Trang 285-300 - 1994

Một mô hình lựa chọn phương thức di chuyển được thử nghiệm thông qua một cuộc khảo sát trên 199 cư dân của một ngôi làng. Hành vi lựa chọn ô tô cho một chuyến đi cụ thể được dự đoán từ thái độ đối với việc lựa chọn ô tô và thái độ đối với việc lựa chọn một phương thức thay thế (tức là, tàu), một mặt, và từ thói quen sử dụng ô tô tổng quát, mặt khác. Không giống như các biện pháp truyền thống về thói quen, một biện pháp dựa trên kịch bản đã được sử dụng. Thói quen tổng quát được đo bằng các lựa chọn phương thức di chuyển phản ứng với những mô tả rất tổng quát về các chuyến đi tưởng tượng. Trong mô hình, thói quen được dự đoán từ mức độ tham gia vào quyết định về lựa chọn phương thức di chuyển cho chuyến đi cụ thể (sự tham gia quyết định) và từ mức độ cạnh tranh trong một hộ gia đình liên quan đến việc sử dụng ô tô. Mô hình cho thấy đạt yêu cầu. Hơn nữa, như được Triandis (1977) gợi ý, có một sự trao đổi giữa thái độ và thói quen trong việc dự đoán hành vi: Khi thói quen mạnh thì mối quan hệ giữa thái độ và hành vi yếu, trong khi khi thói quen yếu thì mối liên kết giữa thái độ và hành vi mạnh.

#lựa chọn phương thức di chuyển #thái độ #thói quen #hành vi #mô hình dự đoán
Ước Lượng Các Mô Hình Hồi Quy Trong Đó Biến Phụ Thuộc Dựa Trên Các Ước Tính Dịch bởi AI
Political Analysis - Tập 13 Số 4 - Trang 345-364 - 2005

Các nhà nghiên cứu thường sử dụng các đại lượng ước lượng từ các tập dữ liệu hỗ trợ làm biến phụ thuộc. Các mô hình biến phụ thuộc ước lượng (EDV) xuất hiện, chẳng hạn, trong các nghiên cứu khi đơn vị phân tích là các quận hoặc bang và biến phụ thuộc là một giá trị trung bình ước lượng, tỷ lệ, hoặc hệ số hồi quy. Các học giả khi điều chỉnh mô hình EDV thường nhận thức rằng độ biến thiên trong phương sai lấy mẫu của các quan sát đối với biến phụ thuộc sẽ gây ra tính không đồng nhất phương sai (heteroscedasticity). Chúng tôi chỉ ra rằng phương pháp phổ biến nhất để giải quyết vấn đề này, bình phương nhỏ nhất có trọng số (weighted least squares), thường dẫn đến các ước lượng không hiệu quả và tiêu chuẩn sai bị ước lượng thấp hơn. Trong nhiều trường hợp, OLS với các sai số chuẩn nhất quán của White hoặc Efron sẽ cho kết quả tốt hơn. Chúng tôi cũng đề xuất hai phương pháp FGLS thay thế đơn giản hơn, hiệu quả hơn và mang lại các ước lượng sai số chuẩn nhất quán. Cuối cùng, chúng tôi áp dụng các ước lượng thay thế khác nhau vào việc sao chép nghiên cứu quốc tế của Cohen (2004) về sự phê duyệt tổng thống.

Kiểm định độ vừa vặn cho mô hình hồi quy logistic được ước lượng bằng dữ liệu mẫu khảo sát Dịch bởi AI
Stata Journal - Tập 6 Số 1 - Trang 97-105 - 2006

Sau khi mô hình hồi quy logistic được ước lượng, cần thực hiện một kiểm định tổng thể về độ vừa vặn của mô hình kết quả. Một kiểm định thường được sử dụng để đánh giá độ vừa vặn của mô hình là kiểm định Hosmer–Lemeshow, có sẵn trong Stata và hầu hết các phần mềm thống kê khác. Tuy nhiên, thường thì người ta quan tâm đến việc ước lượng mô hình hồi quy logistic cho dữ liệu khảo sát mẫu, chẳng hạn như dữ liệu từ Khảo sát Phỏng vấn Sức khỏe Quốc gia hoặc Khảo sát Kiểm tra Sức khỏe và Dinh dưỡng Quốc gia. Thật không may, trong những trường hợp như vậy chưa có quy trình kiểm định độ vừa vặn nào được phát triển hoặc triển khai trong phần mềm hiện có. Để giải quyết vấn đề này, một lệnh ado của Stata, svylogitgof, được phát triển nhằm ước lượng kiểm định trung bình dư F đã hiệu chỉnh sau khi ước lượng svy: logit hoặc svy: logistic, và bài báo này mô tả việc triển khai của nó.

Nồng độ chlorophyll, vật chất lơ lửng và gelbstoff trong các vùng nước loại II được suy diễn từ dữ liệu máy quét màu vùng ven biển vệ tinh bằng phương pháp mô hình hồi quy ngược Dịch bởi AI
American Geophysical Union (AGU) - Tập 99 Số C4 - Trang 7457-7466 - 1994

Các kỹ thuật tỷ lệ màu được sử dụng để suy diễn nồng độ chlorophyll từ dữ liệu bức xạ của máy quét màu vùng nước ven biển (CZCS) không hiệu quả ở những vùng có nồng độ vật chất lơ lửng và gelbstoff cao (thường được định nghĩa quang học là nước loại II). Để xem xét tất cả các thành phần nước làm biến đổi trường bức xạ phản xạ cũng như độ bức xạ của đường đi khí dung, một kỹ thuật mô hình hồi quy ngược dựa trên xấp xỉ truyền bức xạ hai dòng và quy trình tối ưu hóa simplex đã được phát triển. Kỹ thuật này sử dụng đồng thời độ bức xạ của bốn kênh phổ CZCS đầu tiên và tối thiểu hóa sự khác biệt χ2 giữa độ bức xạ mô hình và độ bức xạ "đã được hiệu chỉnh Rayleigh" từ CZCS. Mô hình hai dòng được hiệu chỉnh với một tập hợp dữ liệu bức xạ đã được mô phỏng bằng mô hình truyền bức xạ toán tử ma trận. Trong một thử nghiệm đầu tiên, quy trình mô hình hồi quy ngược đã được sử dụng để tạo ra bản đồ phân bố định lượng của chlorophyll fitoplankton, vật chất lơ lửng (trọng lượng khô), và gelbstoff; độ bức xạ đường đi khí dung; và chiều sâu tín hiệu của Biển Bắc. Bằng cách đưa vào độ bức xạ đường đi khí dung như một biến, quy trình này ngụ ý việc hiệu chỉnh khí quyển. Một bản đồ các giá trị còn lại χ2 cho thấy sự thành công của việc phục hồi cho từng pixel.

Mô hình hồi quy tuyến tính tổng hợp ngẫu nhiên: một bộ dự đoán kết hợp chính xác và dễ diễn giải Dịch bởi AI
BMC Bioinformatics - - 2013
Tóm tắt Đặt vấn đề

Các bộ dự đoán kết hợp như rừng ngẫu nhiên thường có độ chính xác vượt trội nhưng dự đoán của chúng khó giải thích. Ngược lại, mô hình hồi quy tuyến tính tổng quát (GLM) rất dễ diễn giải, đặc biệt khi sử dụng lựa chọn đặc trưng tiến tiến để xây dựng mô hình. Tuy nhiên, lựa chọn đặc trưng tiến tiến thường dẫn đến việc quá khớp dữ liệu và dẫn đến độ chính xác dự đoán thấp. Do đó, việc kết hợp những lợi thế của các bộ dự đoán kết hợp (độ chính xác cao) với những lợi thế của mô hình hồi quy tiến tiến (khả năng giải thích) vẫn là một mục tiêu nghiên cứu quan trọng. Để giải quyết mục tiêu này, một số bài viết đã khám phá các bộ dự đoán kết hợp dựa trên GLM. Tuy nhiên, kết quả đánh giá hạn chế cho thấy rằng các bộ dự đoán kết hợp này có độ chính xác thấp hơn so với các bộ dự đoán thay thế, do đó chúng nhận được ít sự chú ý trong tài liệu.

#mô hình hồi quy tuyến tính tổng quát #rừng ngẫu nhiên #dự đoán kết hợp #độ chính xác cao #giải thích dễ dàng.
Một khung làm việc chính quy để mô hình hóa và xác thực các sơ đồ Simulink Dịch bởi AI
Formal Aspects of Computing - Tập 21 Số 5 - Trang 451-483 - 2009
Tóm tắt

Simulink được sử dụng rộng rãi trong ngành công nghiệp để mô hình hóa và mô phỏng các hệ thống nhúng. Với việc sử dụng ngày càng tăng của các hệ thống nhúng trong các tình huống an toàn thời gian thực quan trọng, Simulink trở nên thiếu khả năng phân tích yêu cầu (thời gian) với độ tin cậy cao. Trong bài viết này, chúng tôi áp dụng Tính toán Khoảng thời gian Thời gian (TIC) - một ngôn ngữ đặc tả thời gian thực, để bổ sung khả năng kiểm định chính quy TIC cho Simulink. Chúng tôi xây dựng một cách tỉ mỉ các hàm thư viện TIC để mô hình hóa các khối thư viện Simulink, được sử dụng để tạo thành các sơ đồ Simulink. Tiếp theo, các sơ đồ Simulink được tự động chuyển đổi thành các mô hình TIC, bảo toàn các khía cạnh chức năng và thời gian. Các yêu cầu quan trọng như liveness bị giới hạn thời gian có thể được đặc tả chính xác trong TIC cho toàn bộ sơ đồ hoặc một số thành phần. Cuối cùng, việc xác thực các mô hình TIC có thể được tiến hành chặt chẽ với một mức độ tự động hóa cao bằng cách sử dụng một công cụ định lý chung. Khuôn khổ của chúng tôi có thể mở rộng không gian thiết kế bằng cách đại diện cho các thuộc tính môi trường cho các hệ thống mở và xử lý các sơ đồ phức tạp vì việc phân tích hành vi liên tục và rời rạc được hỗ trợ.

#Tính toán Khoảng thời gian Thời gian #Simulink #hệ thống nhúng #xác thực chính quy #mô hình hóa #ngôn ngữ đặc tả thời gian thực
Tổng số: 236   
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 10